深度神经网络(DNN)几乎在商业,技术和科学上几乎普遍存在计算机视觉任务中实现了前所未有的表现。尽管为高度准确的体系结构而做出了大量的努力并提供了可用的模型解释,但大多数最先进的方法首先是为自然视觉设计的,然后转换为医疗领域。本论文旨在通过提出新的体系结构来解决这一差距,这些新型体系结构将医学成像的特定域约束纳入DNN模型和解释设计。
translated by 谷歌翻译
Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
translated by 谷歌翻译
We present a framework for ranking images within their class based on the strength of spurious cues present. By measuring the gap in accuracy on the highest and lowest ranked images (we call this spurious gap), we assess spurious feature reliance for $89$ diverse ImageNet models, finding that even the best models underperform in images with weak spurious presence. However, the effect of spurious cues varies far more dramatically across classes, emphasizing the crucial, often overlooked, class-dependence of the spurious correlation problem. While most spurious features we observe are clarifying (i.e. improving test-time accuracy when present, as is typically expected), we surprisingly find many cases of confusing spurious features, where models perform better when they are absent. We then close the spurious gap by training new classification heads on lowly ranked (i.e. without common spurious cues) images, resulting in improved effective robustness to distribution shifts (ObjectNet, ImageNet-R, ImageNet-Sketch). We also propose a second metric to assess feature reliability, finding that spurious features are generally less reliable than non-spurious (core) ones, though again, spurious features can be more reliable for certain classes. To enable our analysis, we annotated $5,000$ feature-class dependencies over {\it all} of ImageNet as core or spurious using minimal human supervision. Finally, we show the feature discovery and spuriosity ranking framework can be extended to other datasets like CelebA and WaterBirds in a lightweight fashion with only linear layer training, leading to discovering a previously unknown racial bias in the Celeb-A hair classification.
translated by 谷歌翻译
建模是什么使广告有说服力的原因,即引起消费者的所需响应,对于宣传,社会心理学和营销的研究至关重要。尽管其重要性,但计算机视觉中说服力的计算建模仍处于起步阶段,这主要是由于缺乏可以提供与ADS相关的说服力标签的基准数据集。由社会心理学和市场营销中的说服文学的激励,我们引入了广泛的说服策略词汇,并建立了用说服策略注释的第一个AD图像语料库。然后,我们通过多模式学习制定说服策略预测的任务,在该任务中,我们设计了一个多任务注意融合模型,该模型可以利用其他广告理解的任务来预测说服策略。此外,我们对30家财富500家公司的1600个广告活动进行了真实的案例研究,我们使用模型的预测来分析哪些策略与不同的人口统计学(年龄和性别)一起使用。该数据集还提供图像分割掩码,该蒙版在测试拆分上标记了相应的AD图像中的说服力策略。我们公开发布代码和数据集https://midas-research.github.io/persuasion-avertisements/。
translated by 谷歌翻译
我们首次建议使用基于多个实例学习的无卷积变压器模型,称为多个实例神经图像变压器(Minit),以分类T1Weighted(T1W)MRIS。我们首先介绍了为神经图像采用的几种变压器模型。这些模型从输入体积提取非重叠的3D块,并对其线性投影进行多头自我注意。另一方面,Minit将输入MRI的每个非重叠的3D块视为其自己的实例,将其进一步分为非重叠的3D贴片,并在其上计算了多头自我注意力。作为概念验证,我们通过训练模型来评估模型的功效,以确定两个公共数据集的T1W-MRIS:青少年脑认知发展(ABCD)和青少年酒精和神经发展联盟(NCANDA)(NCANDA) 。博学的注意力图突出了有助于识别脑形态计量学性别差异的体素。该代码可在https://github.com/singlaayush/minit上找到。
translated by 谷歌翻译
丰富的时间信息和视角中的变化使视频数据成为使用无监督的对比度学习(UCL)技术学习图像表示的有吸引力的选择。最先进的(SOTA)对比度学习技术将视频中的帧视为嵌入空间中的阳性,而其他视频的框架则被视为负面因素。我们观察到,与自然场景视频中对象的多种视图不同,超声(US)视频捕获了器官的不同2D片。因此,即使是相同的美国视频的暂时遥远框架之间几乎没有相似之处。在本文中,我们建议相反使用诸如硬底面的框架。我们主张在UCL框架中对硬度敏感的负挖掘课程进行挖掘,并在硬度敏感的负面挖掘课程中挖掘,以学习丰富的图像表示。我们部署框架以从美国视频中学习胆囊(GB)恶性肿瘤的表示。我们还构建了第一个大型US视频数据集,其中包含64个视频和15,800帧,用于学习GB表示。我们表明,经过我们框架训练的标准RESNET50骨干线可以提高使用SOTA UCL技术预测的模型的准确性,并在Imagenet上对ImageNet上的有监督的预处理模型提高了GB恶性检测任务的预期模型,提高了2-6%。我们进一步验证了方法在COVID-19病理的公开肺图像数据集上的普遍性,与SOTA相比,改善了1.5%。源代码,数据集和模型可在https://gbc-iitd.github.io/usucl上找到。
translated by 谷歌翻译
超声使用是因为其成本低,非电离和非侵入性特征,并且已成为基石放射学检查。超声应用程序的研究也扩大了,尤其是通过机器学习的图像分析。但是,超声数据通常仅限于封闭的数据集,只有少数几个公开可用。尽管经常检查器官,但肾脏缺乏公开可用的超声数据集。拟议的开放肾脏超声数据集是第一套公开可用的肾脏B模式超声数据,其中包括用于多级语义分段的注释。它基于5年以上500多名患者的回顾性收集的数据,平均年龄为53.2 +/- 14。7年,体重指数为27.0 +/- 5.4 kg/m2,最常见的原发性疾病是糖尿病,IgA肾病和高血压。有两位专家超声师的视图标签和细粒度的手动注释。值得注意的是,该数据包括天然和移植的肾脏。进行了初始的基准测量测量,证明了一种最先进的算法,该算法达到了肾脏胶囊的骰子Sorenson系数为0.74。该数据集是一个高质量的数据集,包括两组专家注释,图像比以前可用的更大。为了增加获得肾脏超声数据的访问,未来的研究人员可能能够创建用于组织表征,疾病检测和预后的新型图像分析技术。
translated by 谷歌翻译
建模超声斑点对其表征组织特性的能力引起了极大的兴趣。由于斑点取决于潜在的组织结构,因此对其进行建模可能有助于分割或疾病检测等任务。但是,对于通常用于研究功能障碍的移植肾脏,目前尚不清楚哪个统计分布最能表征这种斑点。对于移植肾脏的区域而言,尤其如此:皮质,髓质和中央回声复合物。此外,目前尚不清楚这些分布如何因患者变量(例如年龄,性别,体重指数,原发性疾病或供体类型)而有所不同。这些特征可能会影响斑点建模,鉴于它们对肾脏解剖结构的影响。我们是第一个调查这两个目标的人。 n = 821肾移植受者B模式图像自动使用神经网络自动分段到皮质,髓质和中央回声复合物中。每个区域都安装了七个不同的概率分布。雷利和中族分布的模型参数在这三个区域之间有显着差异(p <= 0.05)。虽然两者都具有极好的合身性,但中田族具有更高的Kullbeck-Leibler Divergence。受体年龄与皮质中的尺度弱相关(Omega:Rho = 0.11,p = 0.004),而体重指数与髓质中的形状微弱相关(M:RHO = 0.08,p = 0.04)。性别,原发性疾病和供体类型均未表现出任何相关性。我们提出,根据我们的发现,中纳卡米分布可用于表征区域性的移植肾脏和大多数患者特征。
translated by 谷歌翻译
机器学习模型在我们的生活中越来越普遍,例如协助进行图像分类或决策任务。因此,这些模型的可靠性至关重要,并导致开发了许多验证和验证其稳健性和公平性的方法。但是,除了这样的特定属性之外,指定模型的一般功能校正期望是具有挑战性的。在本文中,我们从正式方法中使用的规格中汲取灵感,通过推理约$ k $不同的执行,即所谓的$ k $ -safety属性来表达功能校正属性。考虑到银行的信用筛查模型,“如果一个人被拒绝贷款并减少其收入,他们仍然应该被拒绝贷款”,这是2范围的财产。在这里,我们显示了用于机器学习模型的$ K $ - 安全性属性的广泛适用性,并介绍了表达它们的第一个规范语言。我们还在使用变质测试自动验证此类属性的框架中操作该语言。我们的实验表明,我们的框架有效地识别违反财产的行为,并且可以使用检测到的错误来训练更好的模型。
translated by 谷歌翻译
从社交媒体中刮擦的数据的流行率是获取数据集的一种手段,这导致人们对未经授权使用数据的关注日益严重。已经提出了数据中毒攻击是一种反对刮擦的堡垒,因为它们通过添加微小的,不可察觉的扰动来使数据“无法透视”。不幸的是,现有方法需要了解目标体系结构和完整的数据集,以便可以训练替代网络,其参数用于生成攻击。在这项工作中,我们引入了自回旋(AR)中毒,这种方法可以生成中毒的数据而无需访问更广泛的数据集。提出的AR扰动是通用的,可以在不同的数据集上应用,并且可以毒化不同的体系结构。与现有的未透视方法相比,我们的AR毒物更具抵抗力的防御能力,例如对抗性训练和强大的数据增强。我们的分析进一步洞悉了有效的数据毒物。
translated by 谷歌翻译